Aside

Jaime Arboleda Castilla

Información de contacto

Habilidades y Conocimientos

Main

Jaime Arboleda Castilla

Científico de Datos | Matemático | Ingeniero Informático

Nacido en 1985 en Algeciras (Cádiz).

Me encanta obtener conocimientos a partir de los datos, y aprovecharlos para tomar decisiones mejores. Siempre estoy apasionado por aprender cosas nuevas. Estoy interesado especialmente en la utilización de la Inteligencia Artificial y el Machine Learning en el control del fraude tributario.

Experiencia profesional

Jefe de Área

Agencia Tributaria

Madrid

Actualidad - 2024

En la Subdirección de Tecnologías de Análisis de la Información en Investigación del Fraude del Departamento de Informática Tributaria

Descripción

  • Funcionario del Cuerpo Superior de Sistemas y Tecnologías de la Administración del Estado.
  • Jefe de Área de modelos predictivos en el control del fraude.

Proyectos

  • Desarrollo de una plataforma ad-hoc para monitorizar los modelos de Machine Learning (MLOPS).
  • Aplicación de redes neuronales convolucionales para detección de fraudes en imágenes de Rayos X en aduanas.

Tecnologías

  • Python, Spark.
  • Pandas, Numpy, Scikit-Learn, Xgboost, PyTorch, ZenML.
  • Linux, Cloudera.
  • SyBase IQ.

Data Scientist

Comisión Europea

Trabajo remoto

2023 - 2021

En el proyecto Safety and Security Analytics (SSA) ICS2 Project, TAXUD

Descripción

  • Investigación, diseño y desarrollo continuo de modelos en SSA.
  • Apoyo en la implementación y orquestación de modelos en SSA, y soluciones analíticas para uso en tiempo real.
  • Apoyo en el diseño, organización y supervisión de todo el flujo de trabajo en SSA.
  • Desarrollo de capacidades de búsqueda y detección de anomalías.
  • Formación a funcioarios de todos los Estados Miembros.

Proyectos

  • Motor de búsqueda de similitud (entre declaraciones de aduanas) usando redes neuronales.
  • Herramienta de comparación de modelos para análisis de rendimiento, construida con Dash y Docker.
  • Generación sintética de XMLs.
  • Herramienta de procesado de XMLs.
  • Detección de Anomalías en las declaraciones de aduanas.

Tecnologías

  • Dataiku, RStudio, JupyterLab.
  • Denodo, Oracle, PostgreSQL, Neo4j.
  • SQL, Python, R, Bash, XML, JSON, HTML.
  • Numpy, Pandas, Keras, Tensorflow, Dash.
  • GitLab, Jenkins, Docker, Kubernetes, Apache Kafka.

Jefe de Área

Agencia Tributaria

Madrid

2021 - 2020

En la Subdirección de Tecnologías de Análisis de la Información en Investigación del Fraude del Departamento de Informática Tributaria

Descripción

  • Funcionario del Cuerpo Superior de Sistemas y Tecnologías de la Administración del Estado.
  • Jefe de Área de modelos predictivos en el control del fraude.

Proyectos

  • Algoritmo de clustering personalizado (basado en KNN) que, utilizando la información de compras y ventas de cada empresa, predice si su sector declarado de actividad económica es correcto o no.
  • Identificación de la posición estadística y subvaloración de bienes en declaraciones aduaneras mediante la modificación de un algoritmo existente proporcionado por la Comisión Europea.
  • Clasificador (utilizando XGBoost) para predecir cuándo es más probable que un contribuyente cometa un error al modificar algunas partes de su borrador de IRPF. El objetivo era enviar un mensaje de advertencia a estos contribuyentes en caso de modificación, con el fin de reducir errores.
  • Clasificador para predecir el riesgo de impago de deudas con la Agencia Tributaria, con el propósito de anticipar medidas preventivas.
  • Clasificador para predecir el riesgo de no pagar sus obligaciones fiscales a tiempo para un contribuyente dado. Este modelo utiliza información casi en tiempo real sobre todas las facturas recopiladas en los meses anteriores a la predicción.
  • Modelo de regresión para predecir los ingresos totales (declarados o no declarados) de una familia dada utilizando toda la información disponible.

Tecnologías

  • Python, Scala, Spark.
  • Pandas, Numpy, Scikit-Learn, Xgboost, Luigi.
  • Linux, Cloudera.
  • SyBase IQ, DataStage.

Jefe de Área

Agencia Tributaria

Madrid

2019 - 2017

En la Subdirección de Aplicaciones del Departamento de Informática Tributaria

Descripción

  • Funcionario del Cuerpo Superior de Sistemas y Tecnologías de la Administración del Estado.
  • Jefe de Área de Aplicación Gestora de IRPF.

Proyectos

  • Servicio web para la ingesta de datos personales, para la aplicación Renta Web.
  • Servicio criptográfico para otorgar credenciales de acceso para la presentación de las Declaraciones de IRPF.
  • Ingesta de datos de Declaraciones de IRPF.
  • Análisis de riesgos (combinando riesgos basados en reglas, riesgos estadísticos y modelos predictivos simples) para las Declaraciones de IRPF.
  • Desarrollo de software para la gestión y ciclo de vida de las Declaraciones de IRPF.

Tecnologías

  • COBOL, Java, HTML, JavaScript.
  • Web Services.
  • DB2, Oracle.
  • Z/OS, Linux.
  • SyBase IQ, DataStage.

Jefe de Servicio

Agencia Tributaria

Madrid

2017 - 2013

En la Subdirección de Aplicaciones del Departamento de Informática Tributaria

Descripción

  • Funcionario del Cuerpo Superior de Sistemas y Tecnologías de la Administración del Estado.
  • Jefe de Área de Aplicación Gestora de Sociedades

Projects

  • Ingesta de datos de Declaraciones de Sociedades
  • Análisis de riesgos (combinando riesgos basados en reglas, riesgos estadísticos y modelos predictivos simples) para las Declaraciones de Sociedades.
  • Desarrollo de software para la gestión y ciclo de vida de las Declaraciones de Sociedades.

Technologies

  • COBOL, Java.
  • DB2, Oracle.
  • Z/OS, Linux.
  • SyBase IQ, DataStage.

Experiencia Docente

Big Data

BBVA

Trabajo Remoto

2023

Profesor de Data Scientist Fundamentals, impartido a 23 trabajadores del BBVA en Mexico, Argentina y Colombia. El curso tuvo una duración de 42 días (168 horas), y cubrió entre otros:

  • Big Data tools en BBVA (Datio, Stratio, Crossdata).
  • Python.
  • Data Wrangling con Numpy y Pandas.
  • Data Visualization con Matplotlib y Seaborn.
  • Machine Learning con scikit-learn.
  • Big Data con Spark y SparkSQL.
  • Machine Learning con SparkML.
  • Deep Learning con PyTorch.

Seminario

Webinar

Universidad Complutense, Madrid

2021

Di una charla en el webinar sobre Fiscalidad e Inteligencia Artificial, con Ramón Palacios (Subdirector del Departamento de Verificación y Control Tributario) sobre el proyecto Nudge para impulsar el control tributario adelantándolo a la fase de Asistencia al Contribuyente.

Publicaciones

Proyecto Nudge

Paper

Aranzadi Thomson Reuters

2021

El proyecto Nudge, realizado en la Agencia Tributaria, consistió en la aplicación de la Inteligencia Artificial para ayudar en la asistencia al contribuyente y el cumplimiento voluntario de las obligaciones fiscales. Fue publicado en Aranzadi Thomson Reuters, junto con otros trabajos presentados en el seminario web “Fiscalidad e Inteligencia Artificial” organizado por la Universidad Complutense de Madrid.

Colaboraciones en proyectos Open Source

Colaborador de category_encoders

category_encoders

Trabajo Remoto

2023

Arreglé un error relacionado con la compatibilidad entre la librería y sklearn. Mi solución fue integrada en el proyecto.

Colaborador de Keras

Keras

Trabajo Remoto

2022

Encontré un error, y semanas después pude resolverlo con una solución que fue integrada en el proyecto.

Desarrollador de una librería Open Source

Nested Cross Validation

Trabajo remoto

2021

Librería de Python que hace hyperparameter optimization y probability calibration sobre modelos de clasificación usando un enfoque de Nested Cross-Validation.

Formación

DataTalksClub

Zoomcamp

Remoto

2023

  • Data Engineering Zoomcamp

Comisión Europea

Formación interna

Remote

2022 - 2021

  • Cibersecurity
  • Software Development y Agile Methodologies.

Agencia Tributaria

Formación interna

Madrid

2021 - 2013

  • Análisis de Datos.
  • Machine Learning y Big Data.
  • Geospatial Data Processing en R.
  • Metodologías Ágiles.
  • Zújar (herramienta interna de BI).
  • Genio (herramienta interna de reporting).
  • Blockchain.
  • OSGI y Java.

Coursera

Cursos y especializaciones

Remote

2022 - 2017

  • Probabilistic Graphical Models: Representation
  • Probabilistic Graphical Models: Inference
  • Probabilistic Graphical Models: Learning
  • Bayesian Statistics: From Concept to Data Analysis.
  • Bayesian Statistics: Techniques and Models.
  • Bayesian Statistics: Mixture Models.
  • Neural Networks and Deep Learning.
  • Improving Deep Neural Networks: Hyperparameter Tuning, Regularization and Optimization.
  • Structuring Machine Learning Projects.
  • Convolutional Neural Networks and Computer Vision.
  • Sequence Models and Natural Language Processing.
  • Machine Learning.

INAP

Curso selectivo

Madrid

2013 - 2012

Curso de acceso al Cuerpo Superior de Sistemas y Tecnologías de la Información del Estado.

  • Aprobado con la segunda mejor calificación de todos los candidatos.

Universidad Española de Educación a Distancia (UNED)

Master en formación del profesorado

Madrid

2016 - 2014

  • Nota media de 8.1.
  • Finalizado con un trabajo de enseñanza de matemáticas usando programación.

Universidad Complutense de Madrid (UCM)

Master en Investigación Matemática

Madrid

2010 - 2009

  • Nota media de 8.8.
  • Finalizado con un trabajo de investigación en cuantización geométrica.

Universidad Autónoma de Madrid (UAM)

Double grado en Matemáticas e Informática

Madrid

2009 - 2005

  • Nota media de 9.5.
  • 25 Matrículas de Honor.
  • Premio al mejor estudiante de la promoción.